人脑|解剖学_·深度学习实战（1.5）——深度学习几大难点

作者：morimodomasaaki | 来源：互联网 | 2023-09-17 16:47

篇首语：本文由编程笔记#小编为大家整理，主要介绍了·深度学习实战（1.5）——深度学习几大难点相关的知识，希望对你有一定的参考价值。一、局部最优问题

篇首语：本文由编程笔记#小编为大家整理，主要介绍了·深度学习实战（1.5）——深度学习几大难点相关的知识，希望对你有一定的参考价值。

一、局部最优问题

深度学习算法的目标函数&＃xff0c;几乎全都是非凸的。而目前寻找最优解的方法&＃xff0c;都是基于梯度下降的。稍微有点背景知识的人都知道&＃xff0c;梯度下降方法不能解决是解决非凸问题的。因此&＃xff0c;如果找到最优解&＃xff0c;将是深度学习领域&＃xff0c;非常值得研究的课题。

andrew在google的工作&＃xff0c;也就是那只猫&＃xff0c;其实训练过程是让人很费解的。为了缩短训练时间&＃xff0c;项目组采用了分布式训练的方式。采用了1000 台计算机&＃xff0c;在不同的计算机上存储不同的训练数据&＃xff0c;不同的训练服务器通过参数服务器进行参数的交换。训练过程开始后&＃xff0c;所有的训练计算机从参数服务器更新当前参数&＃xff0c;然后利用当前参数以及本机器上的训练数据&＃xff0c;计算得到当前的梯度&＃xff0c;通过贪婪式方法&＃xff0c;训练到不能再训练为止&＃xff0c;然后将参数的更新量提交给服务器&＃xff0c;再获取新的参数进行更新。

在这个过程中&＃xff0c;出现了不同机器在同步时间上的一个大问题。具体阐述如下&＃xff1a;梯度下降这种方法&＃xff0c;在计算梯度的时候&＃xff0c;一定要知道当前参数的具体值&＃xff0c;梯度是针对某一个具体的参数值才有意义的。但是&＃xff0c;由于在这个系统中&＃xff0c;计算机非常多&＃xff0c;当计算机A从服务器上获得参数值后&＃xff0c;完成梯度的计算得到步进量的时候&＃xff0c;可能在它提交结果之前&＃xff0c;计算机B已经修改了参数服务器上的参数了。也就是说&＃xff0c;A所得到的步进量&＃xff0c;并不是针对当前的参数值的。

论文中&＃xff0c;作者注意到了这个问题&＃xff0c;但是故意不去理会&＃xff0c;结果训练结果居然不错。作者的解释是&＃xff1a;这是一种歪打正着的现象。

为什么能够歪打正着呢&＃xff1f;有可能是这样的&＃xff1a;非凸问题&＃xff0c;本来就不是梯度下降法能够解决的。如果不存在同步难题&＃xff0c;那么随着训练的深入&＃xff0c;结果肯定会收敛到某一个局部最优解上面去。而现在这种同步问题&＃xff0c;恰好能够有助于跳出局部最优解。因此最终的训练结果还算不错。

作者并没有证明&＃xff0c;这种方式&＃xff0c;对于寻找全局最优一定是有帮助的。对于最终的结果是否一定是经验最优的&＃xff0c;也没有证明。因此我感觉&＃xff0c;深度学习里面&＃xff0c;这种超高维参数的最优结果的寻优&＃xff0c;是一个很值得深入研究的问题。它对于最终的效果也确实影响很大。

二、内存消耗巨大&＃xff0c;计算复杂

内存消耗巨大和计算复杂体现在两个方面&＃xff1a;

&＃xff08;1&＃xff09;训练过程 &＃xff08;2&＃xff09;检测过程

这两个过程的计算复杂&＃xff0c;根本原因都是庞大的参数规模造成的。比如google的这个项目&＃xff0c;每一个位置都用到了8个模版&＃xff0c;每一个像素&＃xff0c;这8个模版都是不同的&＃xff0c;因此导致最后的模版总数很大&＃xff0c;所以训练和检测都很慢。当然&＃xff0c;这种模版的设计法&＃xff0c;让人不好理解&＃xff0c;为什么不同的像素位置&＃xff0c;模版完全不同。我还是支持以前的卷积神经网络里面的思想&＃xff0c;不同位置的模版都是一样的&＃xff0c;但没一个位置&＃xff0c;模版数量就远不止8个了。这样的好处是&＃xff0c;内存空间中&＃xff0c;总的模板数下降了&＃xff1b;但缺点是&＃xff0c;计算更复杂了。

因此&＃xff0c;如果能够找到一个好的方法&＃xff0c;能够有效的较低计算复杂度&＃xff0c;将是很有意义的。&＃xff08;比如某个邻域内如果方差极小&＃xff0c;其实根本就没必要计算了&＃xff0c;直接赋0.&＃xff09;

三、人脑机理还有很多没用上

深度学习模拟的是人脑的其中一个很小的方面&＃xff0c;就是&＃xff1a;深度结构&＃xff0c;以及稀疏性。

但事实上&＃xff0c;人脑是相当复杂滴。关于视觉注意机制、多分辨率特性、联想、心理暗示等功能&＃xff0c;目前根本就没有太多的模拟。所以神经解剖学对于人工智能的影响应该是蛮大的。将来要想掀起机器智能的另一个研究高潮&＃xff0c;估计还得继续借鉴神经解剖学。

四、人为设计模版的可行性

一直在想&＃xff0c;为什么第一层用于检测角点和边缘这种简单特征的模版&＃xff0c;一定需要通过无监督训练得到&＃xff0c;如果人为实现模拟的话&＃xff0c;能否也得到较为理想的结果呢&＃xff1f;

从神经解剖学的成果上来看&＃xff0c;人脑的v1区和v2区&＃xff0c;神经细胞确实是按照规律排列的。而且都是可以人为设计的。而且&＃xff0c;一个让人怀疑的地方就是&＃xff0c;v1区和v2区的神经细胞&＃xff0c;是先天发育好的&＃xff0c;还是后天训练出来的&＃xff1f;如果是先天的&＃xff0c;那就是说&＃xff0c;这种模版是可以人为设计的。

五、代价函数的设计方法

代价函数的设计&＃xff0c;在初学者看来&＃xff0c;是很奇怪的。代价函数的设计&＃xff0c;直接影响到最终的模版训练结果&＃xff0c;可以说是深度学习中最核心的模块。

从目前已经发表的论文来看&＃xff0c;一是考虑重构误差&＃xff0c;二是加入某种惩罚项。惩罚项的设计有多种模式&＃xff0c;有考虑一阶范式的&＃xff0c;有考虑二阶范式的&＃xff0c;各种设计可谓千奇百怪。有博文上讲到&＃xff0c;惩罚项的作用是为了防止过拟合&＃xff0c;但也有博文的观点是&＃xff0c;惩罚项是为了保证稀疏性。&＃xff08;感觉过拟合与稀疏性是否存在某种内在联系。&＃xff09;

当然&＃xff0c;代价函数的设计方法&＃xff0c;目前还在不断探索&＃xff0c;感觉这是一个可以发论文的点。

六、整个神经网络系统的设计

神经网络的设计方法&＃xff0c;包含了研究人员对人脑的理解方式。CNN、RBM、RNN&＃xff0c;以及andrew项目组设计的变态网络&＃xff0c;都各有各的特色。要把整个网络框架设计好&＃xff0c;还是比较需要经验的&＃xff0c;也是相当费脑力的。当然&＃xff0c;这是整个领域最有研究价值的模块

推荐阅读

人工智能
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
人工智能
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
process
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
process
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
process
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
process
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
window
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
window
Memcached分布式集群算法优化

本文介绍了Memcached分布式集群中的取模算法和一致性哈希算法的原理及其对缓存命中率的影响。通过详细分析，探讨了如何优化这些算法以提高系统的稳定性和性能。 ... [详细]

蜡笔小新 2024-11-14 11:46:26
window
专家观点：技术不应局限于自我娱乐，需融入市场思维

短暂的人生中，IT和技术只是其中的一部分。无论换工作还是换行业，最终的目标是成功、荣誉和收获。本文探讨了技术人员如何跳出纯技术的局限，实现更大的职业发展。 ... [详细]

蜡笔小新 2024-11-14 10:24:10
process
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
metadata
Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？

Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？ ... [详细]

蜡笔小新 2024-11-08 09:25:06
metadata
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
match
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59
match
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03

morimodomasaaki

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章